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摘 要 : [目的 /意义 ]《 史 记 》 是 我 国 第 一 部 纪 传 体 史 书 , 几 乎 圳 括 黄帝 时 代 到 汉 武 帝 元 狩 元 年 3 000 多 年 的 重大 历史 事 
件 。 如 何 快速 准确 地 发 现 这 些 历史 事件 及 其 之 间 的 内 在 联系 ,对 于 透 过 历史 现象 揭示 历史 实质 以 及 发 现 历史 规 
律 具有 重要 意义 。 [方法 /过 程 ] 在 BERT 模型 和 LSTM-CRF 模型 的 基础 上 ,提出 面向 《史记 ) 的 历史 事件 及 其 组 成 


元 素 抽取 方法 ,并 基于 此 构建 (史记 了》 事理 图 谱 。| 结 


果 / 结论] 实验 结果 表明 ,利用 所 提 方法 抽取 历史 事件 及 其 组 


成 元 素 的 FI 值 分 别 达到 0. 823 和 0.760。 通 过 事理 图 谱 能 够 发 现 蕴 含 在 (史记 》 中 鲜 为 人 知 的 知识 ,这 为 文献 学 、 


词 : 《史记 》 历史 事件 抽取 


号 : G256 


历史 学 、 社 会 学 等 领域 专家 开展 研究 提供 必要 的 资料 准备 。 
事理 图 谱 BERT 模型 ”双向 长 短期 记忆 网 络 条 件 随机 场 


习近平 总 书记 在 党 的 十 九 大 报告 中 指出 ,文化 是 一 
1 付 综 、 一 个 民族 的 灵魂 。 文 化 是 一 个 国家 和 民族 精神 
的 证 续 , 而 优秀 的 传统 文化 是 一 个 国家 和 民族 文化 与 精 
神 晨 面 的 集中 表达 。 从 历史 中 汲取 知识 获取 经 验 ,并 
焰 生 转化 为 解决 前 进 道路 上 种 种 问题 和 重重 困难 的 制 
胜 法 宝 ,是 实现 中 华 民族 伟大 复兴 的 不 竭 动力 和 力量 源 
泉 过 作为 优秀 传统 文化 载体 的 中 华 与 籍 ,在 漫长 的 历史 
发 展 历程 中 不 断 丰 富 发 展 ,最 终 形成 了 具有 中 华 民 族 特 
色 的 文化 宝藏 。 在 众多 中 华 典 籍 中 ,人 史记 》 一 直 占 据 着 
重要 地 位 ,不 仅 因为 它 是 我 国 纪 传 体 史 学 的 葛 基 之 作 ， 
也 是 我 国 传记 文学 的 开端 ,至 今 仍 被 世人 推崇 。 

《史记 》 共 有 130 篇 ,50 余 万 字 ,记载 了 自 上 古 伟 


识 图 谱 着 力 构建 实体 及 其 关系 的 知识 网 络 ,缺乏 对 历 
史 事 件 及 其 关系 的 刻画 。 事 理 图 谱 的 出 现 能 够 有 效 地 
弥补 上 述 不 足 。 在 组 织 结构 上 ,事理 图 谱 是 一 个 有 向 
,其 中 市 点 表示 历史 事件 ,节点 的 属性 表示 历史 事件 
的 组 成 元 素 , 有 向 边 表示 历史 事件 之 间 的 关系 。 

基于 上 述 分 析 , 笔 者 面向 《史记 》 语 料 集 ,在 BERT 
模型 (Bidirectional Encoder Representations from Trans- 
formers) 和 LSTM-CRF 模型 的 基础 上 ,提出 《史记 》 历 史 
有 件 及 其 组 成 元 素 抽 取 方 法 ,并 基于 此 构建 《史记 》 事 
理 图 谱 , 以 揭示 历史 事件 的 发 展 过 程 和 演化 规律 ,全 夯 
刻画 历史 人 物 的 行为 活动 ,为 文献 学 \ 历 史学 社会 学 
等 领域 专家 开展 研究 提供 了 必要 的 资料 准备 。 


2 研究 进展 


alin 


说 中 的 黄帝 时 代 , 到 汉 武 帝 元 狩 元 年 间 共 3 000 多 年 
的 历史 。 其 每 一 个 历史 人 物 和 每 一 起 历史 事件 都 是 对 
史实 反复 核准 后 写 就 的 ,对 于 如 何在 这 部 恢弘 巨著 中 
快速 准确 地 发 现 历史 事件 及 其 之 间 的 内 在 联系 ,进而 
透 过 历史 现象 ,揭示 历史 实质 ,发 现 历 史 规律 具有 重要 
意义 。 历 史 事 件 之 间 在 时 间 和 空间 两 个 维度 上 的 演化 
过 程 和 规律 具有 重要 的 研究 价值 。 当 前 广 受 关注 的 知 


事件 抽取 是 从 非 结构 化 的 语 料 集 中 自动 抽取 事件 
的 信息 并 以 结构 化 的 方式 表示 。 事 件 抽取 是 事理 图 谱 
构建 的 关键 。 事 件 抽取 方法 包括 基于 模板 匹配 的 方法 、 
基于 机 器 学 习 的 方法 以 及 基于 深度 学 习 的 方法 3 类 。 

基于 模板 匹配 的 方法 的 基本 思路 是 利用 人 工 标注 
的 语 料 集 来 进行 事件 的 抽取 。 根 据 人 工 参与 度 的 多 
少 , 该 方法 可 分 为 有 监督 的 方法 和 弱 监督 的 方法 。 有 
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监督 的 方法 根据 人 工 标注 的 语 料 集 进行 事件 抽取 。P. 
Rilof 等 在 构建 触发 词 词典 的 基础 上 ,综合 利用 事件 元 
素 的 描述 信息 及 其 之 间 的 上 下 文 语义 关系 ,构建 了 13 
种 事件 匹配 模板 J. T. Kim 等 基于 WordNet 词典 , 利 
用 短语 结构 和 语义 框架 ,构建 了 并 行 化 的 事件 匹配 模 
AI PALKA”! 。 弱 监督 的 方法 只 需 对 部 分 语 料 集 进行 
人 工 标注 即 可 进行 事件 抽取 。E. Rilof 等 并 未 标注 语 
料 集中 的 所 有 事件 元 素 ,只 标注 了 事件 类 型 , 便 可 基于 
预 分 类 语 料 进行 事件 抽取 ,该 研究 极 大 地 减少 了 语 
料 集 的 人 工 标注 量 ; 姜 吉 发 提出 一 种 基于 领域 无 关 概 
念 层次 知识 库 的 事件 模式 学 习 方法 ,该 方法 无 需 人 工 
标注 语 料 集 以 及 事件 类 别 ,只 需 给 出 事件 抽取 任务 定 
义 就 能 完成 原始 语 料 的 事件 抽取 ,该 方法 将 事件 抽取 
模式 划分 为 语义 模式 .触发 模式 ,抽取 模式 ,特例 模式 
AZ ACHES ; 许 君 宁 等 利用 HowNet 的 语义 角色 杠 


件 抽 取 的 主要 方法 。 常 用 于 事件 抽取 的 深度 学 习 模 型 
有 卷 积 神经 网 络 .递归 神经 网 络 .长 短期 记忆 网 络 等 。 
Y. Chen 等 ”和 了 T. Nguyen 等 ” 最 先 将 卷 积 神经 网 络 
模型 引入 到 事件 抽取 中 。 前 者 基于 卷 积 神经 网 络 模 
型 ,引入 动态 多 池 机 制 来 提高 事件 抽取 效率 。 该 机 制 
根据 位 置信 息 将 候选 触发 词 和 候选 实体 进行 分 割 , 较 
之 最 大 池 机 制 ,能 够 获得 更 深层 次 的 特征 信息 吕 ] 。 后 
者 提出 一 种 基于 Skip-gram 的 卷 积 神经 网 络 模型 ,该 模 
型 能 够 高 效 地 提取 非 连 续 短 语 的 特征 ,因而 能 够 高 效 
地 完成 事件 抽取 任务 ""。 递 归 神 经 网 络 模型 擅长 处 
理 序列 化 的 语 料 信息 。 因 此 ,X，C. Feng 等 首先 利用 
递归 神经 网 络 模型 对 语 料 中 的 每 条 句子 进行 序列 建 
模 , 进 而 获得 句子 的 上 下 文 信息 ;然后 ,利用 卷 积 神经 
网 络 模型 获取 短语 的 特征 信息 ;最 后 ,在 融合 上 述 两 类 
特征 的 基础 上 进行 事件 抽取 o T. H. Nguyen 等 提出 


架 标注 事件 的 语义 角色 ,进而 完成 从 非 结构 化 文本 中 
播 收 事件 的 任务 ” 。 基 于 模板 匹配 的 方法 对 特定 领域 
的 二 件 抽取 表现 优异 ,但 事件 模板 需要 大 量 人 工 标注 ， 
耗 蛙 耗 力 , 且 事件 模板 存在 适应 性 差 的 问题 ,无 法 解决 
ERR 

人 基于 机 器 学 习 的 方法 将 事件 抽取 问题 转化 为 分 类 
问题 ,进而 利用 机 器 学 习 算法 进行 事件 抽取 。 基 于 机 
器 澡 习 的 方法 分 为 4 个 阶段 mm :首先 ,判断 词语 是 否 是 
触发 词 和 事件 类 型 ;然后 ,判断 词语 是 否 是 事件 元 素 ; 
按 沽 ,判断 事件 属性 ;最 后 ,进行 事件 共 指 消解 。 常 用 
FEE ANCL ARSE BAT HF ENL BAH 


基于 递归 神经 网 络 的 事件 抽取 模型 。 该 模型 分 别 利用 
文本 序列 和 记忆 网 络 发 现 事 件 的 局 部 特征 和 全 局 特 
征 ,在 融合 上 述 两 类 特征 的 基础 上 进行 事件 抽取 "1。 
目前 很 多 事件 抽取 研究 都 是 面向 句子 级 的 ,但 Y. Zhao 
等 提出 在 事件 抽取 时 融入 文档 级 的 特征 ,真实 数据 集 
上 的 实验 表明 ,文档 级 的 特征 对 于 提高 事件 抽取 效率 
发 挥 了 重要 作用 "" 。 此 外 ,基于 深度 学 习 的 方法 往往 
易 受 虚假 特征 信息 的 影响 。 鉴 于 此 ,Y，Hong 等 利用 
对 抗 神经 网 络 降低 虚假 特征 信息 的 干扰 ,进而 提高 了 
模型 的 学 习 效率 "| 。 

上 述 方法 的 研究 对 象 是 英文 语 料 集 或 是 现代 汉语 


马尔 科 夫 模型 等 。S. Saha 等 利用 支持 向 量 机 模型 进行 
分 函 生 物事 件 提取 "1 ;F. Zhu Fill FASC He BE E 
中 文 事件 ” ; 许 旭 阳 等 提出 基于 事件 实例 驱动 的 新 闻 
文本 事件 抽取 方法 ,该 方法 首先 抽取 事件 特征 以 形成 
候选 事件 实例 的 表示 ,然后 利用 分 类 算法 来 判断 是 否 
是 事件 实例 ,最 后 利用 层次 聚 类 算法 k-medoids 进行 事 
件 抽取 ” ; 刘 振 利 用 条 件 随 机 场 模型 和 语义 角色 标注 
技术 ,提出 面向 网 络 科技 信息 的 事件 抽取 方法 "”; 吉 
和 久 明 等 对 支持 向 量 机 、 条 件 随机 场 , 聚 类 算法 等 中 文 事 
件 抽取 算法 进行 了 比较 研究 ,研究 结果 表明 , 除 应 用 条 
件 随机 场 抽取 个 人 简历 类 格式 规范 的 语 料 中 事件 取得 
优异 的 效果 外 ,F 值 普遍 低 于 0.9"" 。 基 于 机 器 学 习 
的 方法 在 很 大 程度 上 减少 了 人 力 投入 ,其 适应 性 和 工 
作 效 率 有 了 较 大 提升 。 然 而 ,该 方法 的 各 阶段 相对 独 
立 ,前 面 阶段 的 误差 很 可 能 传递 到 后 面 阶段 ,事件 抽取 
性 能 也 随 之 降低 。 

随 着 深度 学 习 的 广泛 应 用 ,深度 学 习 逐 渐 成 为 事 


语 料 集 , 而 面向 中 华 典 籍 的 事件 抽取 研究 还 不 多 见 。 
与 此 同时 ,深度 学 习 人 研究 不 断 深入 ,2018 年 底 由 Google 
提出 的 BERT 模型 创造 了 自然 语言 处 理 领 域 的 多 项 记 
录 “| 。 基 于 上 述 分 析 , 笔 者 基于 BERT 模型 和 LSTM- 
CRF 模型 ,对 《 史记》 历史 事件 及 其 组 成 元 素 抽取 和 事 
理 图 谱 构 建 问题 展开 深入 人 研究。 


3 ”数据 来 源 与 研究 框架 


3.1 数据 来 源 

笔者 从 古诗 文 网 (https://www. gushiwen. org/ ) f€ 
取 《 史记》 语 料 集 。《 史 记 》 由 本 纪 、 表 , 书 、 世 家 以 及 列 
传 5 部 分 组 成 ,其 中 本 纪 与 列传 所 占 的 篇 幅 最 多 ,本 纪 
以 时 间 线 为 主线 记载 了 各 朝代 帝王 的 史 事 ; 世 家 以 年 
系 事 , 记 载 了 王侯 封 国 的 历史 变迁 ;列传 记载 了 重要 人 
物 的 主要 事迹 ; 书 是 有 关 典 章 制 度 的 专 篇 ; 表 以 表格 的 
形式 记载 了 7 历史 人 物 和 事件 。《 史记 》 共 有 130 篇 ,其 
中 表 10 篇 ,笔者 选取 除 表 之 外 的 120 篇 文献 作为 实验 
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语 料 集 。 
3.2 ”研究 框架 

1 给 出 了 《史记 》 历 史 事 件 及 其 组 成 元 素 抽取 框 
架 。 首 先 ,利用 预 训练 语言 模型 BERT 对 实验 语 料 集 
进行 向 量化 表示 ;接着 ,根据 触发 词 表 ,得 到 语 料 集 中 
历史 事件 之 间 的 关系 ;然后 ,利用 双向 长 短期 记忆 网 络 
(Bidirectional Long Short-Term Memory, BiLSTM ) 抽取 


《史记 》 语 料 集 


W 


>) 


LO 1 


= 


È 
Al 
N 


模型 引入 


[ep 


C2 


AEE CLE RTC MHUIR BERT 和 BiL- 
SPM CRF 混合 模型 。 以 历史 事件 抽取 为 例 ,介绍 两 类 
模 旬 的 基本 工作 流程 。 

4GD BERT 模型 
CNBERT 模型 利用 Transformer 双向 编码 表示 ,通过 
引 次 自 注意 力 机 制 , 能 够 更 好 地 描述 历史 事件 上 下 文 
的 诬 义 特征 。 该 模型 有 效 地 解决 了 传统 向 量 表示 方法 
由 鲁 对 历史 信息 过 分 依赖 而 出 现 的 “一 词 多 义 "的 问 
题 = 图 2 给 出 了 BERT 模型 的 整体 结构 。 利 用 BERT 模 
型 时 实验 语 料 集 进 行 向 量化 表示 的 基本 流程 具体 如 
下 :首先 ,依次 将 语 料 集中 的 每 个 句子 输入 模型 ;接着 ， 
将 输入 的 句子 表示 为 由 字 疝 量 、 句 向 量 和 位 置 向 量 组 
成 的 输入 向 量 E, (i = 1,2,…,n) ;然后 ,利用 多 层 
Transformer( 图 2 中 简写 为 Trm) 对 语 料 经 特征 提取 后 
生成 特征 向 量 7,(i=1,2,…,n)。 


i=, 


2 BERT 模型 结构 


识别 候选 
历史 事件 


实验 语 料 集 的 上 下 文 语义 特征 ,得 到 与 事件 关系 相关 
的 候选 历史 事件 ,利用 条 件 随 机 场 ( Conditional Random 
Field, CRF) 的 约束 规则 确定 最 终 的 历史 事件 ;最 后 ， 
利用 BiLSTM-CRF 从 历史 事件 中 抽取 其 组 成 元 素 。 以 
历史 事件 为 节点 ,历史 事件 组 成 元 素 为 属性 ,历史 事件 
关系 为 边 ,构建 4 史记》 事理 图 谱 ,并 利用 图 数据 库 
Neo4j 对 事理 图 谱 进 行 存储 。 


历史 事件 组 成 
历史 事件 抽取 H 元 素 抽取 ) 


历史 事件 及 其 组 成 元 素 抽取 框架 


4.2 BiLSTM-CRF 模型 

长 短期 记忆 网 络 模型 (Long Short-Term Memory, 
LSTM ) 通 过 引入 门 结构 来 决定 在 训练 期 间 需 要 保留 或 
遗忘 的 信息 ,因而 该 模型 适用 于 处 理 长 序 文本 。 
LSTM 由 输入 门 二 输出 门 MATS, 以 及 记忆 单元 
c, 组 成 。 其 中 ,遗忘 门 用 来 控制 历史 信息 ,输入 门 用 来 
控制 当前 信息 ,输出 门 用 来 确定 下 一 个 隐藏 层 状态 , 记 
忆 单 元 用 来 保存 历史 信息 。LSTM 的 工作 流程 由 以 下 
公式 表征 : 


i, = sigmoid ( W; x [h,i x, ] +b,) 公式 (1) 
f. =sigmoid(W, *[h,,,%,] +b) 公式 (2) 
o, =sigmoid(W, * [h,_,,x,] +6,) 公式 (3) 


c =f, *c,_, +i, x tanh(W, *[h,_,,x,] +b.) 
公式 (4) 

公式 (5) 
其 中 ,sigmoid 和 tanh 函数 为 激活 函数 ,x, 表示 时 
刻 的 输入 ,表示 隐藏 层 单元 , 取 W, W, W, H b, by. 
b, sb, 分 别 表 示 对 应 的 权重 和 矩阵 和 偏 置 。 

实验 语 料 集 可 以 看 作 是 一 种 长 序 文本 ,该 语 料 集 
中 的 上 下 文具 有 紧密 的 联系 。 然 而 ,传统 的 LSTM 模 
型 只 能 利用 t 时 刻 之 前 的 信息 ,而 无 法 利用 t 时 刻 之 后 
的 信息 。 因 此 ,笔者 引入 双向 长 短 时 记忆 神经 网 络 
BiLSTM 模型 ,该 模型 由 两 个 方向 相反 的 LSTM 组 
成 ,这 种 结构 能 够 充分 利用 语 料 集 的 上 下 文 进行 历史 
有 件 抽取 。 

3 给 出 BiLSTM-CRF 模型 的 整体 结构 。 利 用 
BiLSTM-CRF 模型 对 实验 语 料 集 进行 历史 事件 抽取 的 


h, =0, * tanh(c,) 


alin 
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基本 流程 具体 如 下 :首先 ,将 BERT 模型 得 到 的 特征 向 
量 7.(i=1,2,…,n) 输 入 模型 ;然后 ,利用 BiLSTM 模型 
学 习 特 征 向 量 之 间 的 语义 关系 ,并 为 每 个 特征 向 量 打 
上 相应 的 历史 事件 标签 ;最 后 ,根据 CRF 的 约束 规则 
分 析 历 史 事件 关系 标签 之 间 的 语义 关系 ,进而 得 到 历 
史 事 件 抽取 结果 。 


5 实验 设计 和 实验 结果 分 析 


5.1 语 料 预 处 理 

历史 事件 抽取 包括 两 类 任务 :一 类 是 抽取 历史 事 
件 , 男 一 类 是 抽取 历史 事件 组 成 元 素 。 

在 抽取 历史 事件 时 ,根据 历史 事件 的 关系 ,结合 实 
验 语 料 集 的 语句 结构 ,给 出 历史 事件 关系 的 触发 词 ,如 


表 1 所 示 : 
条 件 随机 场 { R1 历史 事件 关系 及 其 对 应 的 触发 词 
ii 历史 事件 关系 含义 触发 词 
并 列 两 件 事件 同时 发 生 着 . .也 .同年 等 
转折 某 事件 与 下 一 事件 发 生 反 转 RANE 
pee 顺 承 某 事件 接着 一 件 事件 发 生 。。” 其 年 ,明年 等 
BiLSTM 因果 两 件 事件 构成 因果 关系 以 . 乃 等 
= 。。 因果。 两 件 事件 构成 因果 关系 。。。 以 .用 等 
> 根据 表 1 所 示 的 历史 事件 关系 及 其 对 应 的 触发 
= 词 ,对 历史 事件 进行 人 工 标注 ,标注 结果 如 图 4 所 示 ， 
N 其 中 标 有 “_ “符号 的 语 料 表示 历史 事件 , 标 有 其 他 
二 人 符号 的 语 料 表示 不 同 的 历史 事件 触发 词 。 
a 天 下 共 苦战 斗 不 体 ，[ 以 ] 有 侯 王 -am 
过 | HAAS, HAEN, FERT. OÐ 不 能 数 串 认 应 做 Ome 
= SLE), GROWER, US. AMER, HBCU, ERRANS, R 
EA MF A MURNITD, BZ. 
S< KGEe, BERET 
a 图 4 历史 事件 标注 样 例 


. 己 在 抽取 历史 事件 组 成 元 素 时 ,根据 实验 语 料 集 的 
特 名 ,将 历史 事件 组 成 元 素 分 为 时 间 、 地 点 .参与 者 3 
部 分 。 以 图 4 中 部 分 语 料 * 其 明年 , 白 起 为 左 更 , 攻 韩 、 


时 间 ”参与 者 ”参与 者 


事件 触发 词 因果 事件 对 


参与 者 并 列 对 地 点 


人 


| 


魏 论 伊 阙 ,斩首 二 十 四 万 ,又 虏 其 将 公孙 喜 , 拔 五 城 。 
明年 ,起 与 客 卿 错 攻 垣 城 , 拔 之 。 为 例 , 进行 历史 事件 
组 成 要 素 标注 ,标注 结果 如 图 5 所 示 : 


顺 承 事件 对 


KEIM. 


参与 者 


参与 者 


事件 触发 词 


参与 者 参与 者 
事件 触发 词 


pa a 


事件 触发 词 


图 5 历史 事件 组 成 元 素 标注 样 例 
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为 了 便于 模型 训练 ,笔者 定义 了 12 类 标记 对 历史 
事件 及 其 组 成 元 素 对 应 的 描述 性 文本 进行 标注 。 其 
中 ,“ 并 列 ”"“ 转 折 ”“ 顺 承 ”“ 因果 ”等 历史 事件 关系 分 
HFA | ti,tu, or, ca} 标记 进行 表示 , “时间 ”“ 地 点 ”“ 参 
与 者 ”等 组 成 元 素 分 别 用 | tm, loc, per | 进行 表示 。 历 
史 事 件 及 其 组 成 元 素 对 应 的 描述 性 文本 分 别 用 |B - ,I 
- 正 - 上 + 前缀 表 示 历 史 事件 及 其 组 成 元 素 的 初始 文 
字 、 中 间 文 字 和 结束 文字 。 例 如 ,因果 关系 事件 “天 下 
共 昔 战斗 不 体 ,以 有 候 王 经 序列 化 标注 后 ,可 以 表示 
为 “天 /B-ca, F/I-ca, t£/I-ca, 苦 /I-ca, 战 /I-ca, 3/1- 
ca, 不 /IT-ca, 休 /E-ca, 以 有 /B-ca 修 /I-ca FE /E-ca” o JI 
史 事 件 及 其 组 成 元 素 对 应 的 描述 性 文本 标记 含义 分 别 


如 表 2 和 表 3 所 示 : 
y= 表 2 历史 事件 对 应 的 描述 性 文本 标记 含义 
its 标记 标记 的 含义 
— B-ti 并 列 开始 文字 
N Li 并 列 中 间 文 字 
© E-ti 并 列 结束 文字 
© Betu 转折 开始 文字 
a btu 转折 中 间 文 字 
E-tu 转折 结束 文字 
pt B-or 顺 承 开始 文字 
O Lor 顺 承 中 间 文字 
N E-or 顺 承 结束 文字 
> Beca 因果 开始 文字 
S< Lca 因果 中 间 文 字 
果 fT 
.和 表 3 历史 事件 组 成 元 素 对 应 的 标记 含义 
O 标记 标记 的 含义 
B-im 二 间 开始 文字 
Ttm 对 间 中 间 文 字 
E-tm Diep ea 
B-loc 也 点 开始 文字 
I- loc 也 点 中 间 文 字 
E- loc 也 点 结束 文字 
B-per 参与 者 开始 文字 
I-per 参与 者 中 间 文 字 
Eper 参与 者 结束 文字 


5.2 ”历史 事件 抽取 实验 
5.2.1 实验 参数 设置 

为 了 验证 笔者 提出 的 模型 BERT + BiLSTM-CRF 
的 有 效 性 ,笔者 设计 了 7 组 对 比 实验 ,分 别 是 :TF-IDF 
+ RNN, TF-IDF + LSTM, TF-IDF + BiLSTM-CRF, 
Word2Vec + RNN Word2Vec + LSTM , Word2Vec + BiL- 
STM-CRF „BERT + RNN, 


随机 选取 30 篇 实验 语 料 集 进行 预 训练 ,进而 得 到 
最 优 实验 参数 。RNN .LSTM .BiLSTM-CRF 等 模型 ,实验 
和 迭代 次 数 epoch 设 为 200; 为 了 防止 过 拟 合 ,将 dropout 设 
置 为 0.5; 批 量 (BatchSize ) 的 大 小 在 网 格 | 16, 32, 64, 
128 ,200 ,256] 中 选取 。 实 验 性 能 的 评价 指标 包括 准确 率 
P AER R 以 及 调和 平均 值 Fl 值 ,具体 定义 如 下 : 


TP 
P= Tp + FP PE 

TP 、 
“元 + 页 

2P-R 、 
ae 公式 (8 ) 


其 中 ,7P 表示 正确 识别 的 事件 数 , FP 表示 错误 识 
别 的 事件 数 ,FN 表示 无 法 识别 的 事件 数 。 
图 6 给 出 了 上 述 8 类 模型 的 批量 值 与 F1 值 的 关系 。 


=O- TF-IDF+RNN 

一 一 TF-IDF+LSTM 

一 一 TF-IDF+BiLSTM-CRF 
F= Word2Vec+RNN 

= Word2Vec+LSTM 

—>— Word2Vec+BiLSTM-CRF 
~—®- BERT+RNN 

一 一 BERT+BiLSTM-CRF 


HEE 
6 批量 值 与 Fl 值 的 关系 


由 图 6 可 以 看 出 ,Fl 值 随 批量 值 变化 的 趋势 是 : 
起 初 FL 值 随 批量 值 的 增 大 而 增 大 ,在 达到 峰值 后 ,Fl 
值 随 批量 值 的 增 大 而 减 小 。 出 现 这 种 现象 的 原因 是 当 
批量 值 较 小 时 , 由 于 模型 学 习 到 的 语义 特征 较 少 ,导致 
模型 的 表现 较 差 ; 当 批量 值 过 大 时 ,模型 的 更 新 周期 变 
长 ,导致 模型 的 语义 特征 学 习 能 力 变 差 ,Fl 值 降 低 。 
表 4 给 出 了 实验 中 各 类 模型 的 批量 值 : 

表 4 ”批量 值 设 置 表 


实验 模型 批量 值 
TFIDF + RNN 256 
TFIDF + LSTM 128 
TFIDF + BiLSTM-CRF 128 
Word2Vec + RNN 256 
Word2Vec +LSTM 200 
Word2Vec + BiLSTM-CRF 128 
BERT + RNN 128 
BERT + BiLSTM-CRF 128 
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5.2.3 比较 实验 
为 了 避免 单 次 实验 的 偶然 性 ,引入 10 折 交 又 验证 
法 分 别 进行 10 组 训练 和 测试 , 取 其 中 最 优 的 实验 结 
作为 最 终 实 验 结果 。 分 别 在 实验 语 料 集 上 运行 上 述 8 
类 模型 ,并 引入 准确 率 PA ELR RPL 值 对 模型 性 能 
进行 评价 。 实 验 结果 如 表 5 所 示 : 
表 5 历史 事件 抽取 比较 实验 结果 


序号 实验 模型 P R Fl 
1 TF-IDF + RNN 0.627 0.614 0.620 
2 TF-IDF + LSTM 0. 564 0.627 0.594 
3 TF-IDF + BiLSTM-CRF 0. 681 0. 683 0. 682 
4 Word2Vec + RNN 0. 723 0.714 0.718 
5 Word2Vec + LSTM 0.715 0.738 0.727 
6 Word2 Vec + BiLSTM-CRF 0.762 0.759 0. 760 
haq BERT + RNN 0.756 0.747 0.751 
一 BERT + BiLSTM-CRF 0. 825 0.821 0. 823 


QV 由 表 5 可 以 看 出 ,在 利用 TF-IDF 进行 语 料 向 量化 
大 鸡 的 实验 中 ,与 RNN 和 LSTM 相 比 ,BiLSTM-CRF 具 
有 最 优 性 能 ,其 Fl 值 达 到 了 0. 682 。 主 要 原因 是 历史 
种 的 上 下 文 语义 联系 密切 ,RNN 和 LSTM 只 能 学 习 
到 网 史 事件 的 “上 文 "信息 ,无 法 利用 其 “下 文 "信息 ， 
名 性 能 不 高 ;BiLSTM-CRF 不 仅 可 以 从 正 、 反 两 个 广 
后 题 取 语 料 中 各 句 的 语义 特征 ,而 且 通过 引入 CRF 约 
东兴 则 可 以 给 出 更 为 准确 的 抽取 结果 。 在 分 别 利用 
Werd2Vec 和 BERT 模型 进行 语 料 向 量化 表示 的 实验 
中 (EE 述 结论 同样 成 立 。 对 比 TF-IDF, Word2 Vec, 
BERT 三 种 向 量化 表示 模型 的 实验 结果 不 难看 出 ,基于 
TRADE 的 历史 事件 抽取 FL 值 最 高 达到 0. 682 ,基于 
Word2 Vec 的 历史 事件 抽取 FL 值 最 高 达到 0. 760 ,基于 
BERT 模型 的 历史 事件 抽取 Fl 值 最 高 达到 0. 823 ,其 
主要 原因 是 ,与 TF-IDF 4H H, Word2 Vec 能 够 充分 利用 
特征 向 量 之 间 的 语义 关系 ;与 TF-IDF 和 Word2Vec 相 
比 ,BERT 模型 具有 最 优 性 能 ,原因 在 于 该 模型 在 向 量 
化 表示 过 程 中 充分 利用 了 语 料 集 的 上 下 文 语义 特征 。 
在 同一 向 量化 表示 模型 下 ,BiLSTM-CRF 均 具 有 最 优 性 
能 ,特别 是 在 BERT 模型 进行 向 量化 表示 的 前 提 下 ,该 
模型 的 FL 值 达到 了 0.823。 由 此 可 见 , 笔 者 提出 的 模 
型 BERT + BiLSTM-CRF 非常 适用 于 历史 事件 抽取 任 
务 。 
5.3 ”历史 事件 组 成 元 素 抽取 实验 

利用 BiLSTM-CRF 模型 抽取 历史 事件 的 组 成 元 
素 。 实 验 参 数 与 5.2.1 节 中 相同 。 实 验 结果 如 表 6 所 
ZN: 


表 6 历史 事件 组 成 元 素 抽取 实验 结果 


组 成 元 素 P R F1 
时 间 0.795 0.788 0.791 
地 点 0.724 0.755 0.739 

参与 者 0.753 0.749 0.751 
均值 0.757 0.764 0.760 


由 表 6 可 以 看 出 ,BiLSTM-CRF 模型 在 抽取 时 间 、 
地 点 ,参与 者 等 历史 事件 组 成 元 素 时 表现 良好 ,其 准确 
R AHR F 值 均 在 0.75 以 上 。 这 表明 ,BiLSTM- 
CRF 模型 能 够 较 好 地 完成 历史 事件 组 成 元 素 抽 取 任 
务 。 

5.4 ”可 视 化 实验 

笔者 在 BERT + BiLSTM-CRF 模型 的 基础 上 ,利用 
Python 编程 语言 开发 了 面向 《 史记》 的 事理 图 谱 可 视 化 
系统 平台 。 该 平台 将 历史 事件 及 其 关系 存储 到 Neo4j 
数据 库 ,利用 Python 的 Django 框架 进行 系统 的 前 后 台 
连接 。 笔 者 以 ( 商 君 列传 》 为 例 ,展示 了 历史 事件 的 抽 
取 以 及 事理 图 谱 的 构建 过 程 。 

图 7 给 出 了 历史 事件 抽取 页 面 。 将 《 商 君 列传 》 语 
料 输入 系统 ,在 页 面 的 左 侧 给 出 待 识 别 的 语 料 ,系统 自 
动 调用 训练 好 的 模型 文件 ,抽取 出 该 语 料 包含 的 历史 
HF ,并 展现 在 页 面 右 侧 。 该 例 包 含 的 因果 关系 事件 
有 < 圣人 苟 可 以 强国 ,因果 ,不 法 其 故 > 、< 太子 犯法 ， 
因果 ,法 之 不 行 , 自 上 犯 之 > 、< 今 看 之 见 秦王 ,因果 ， 
BE Mage hi DI E> ,并 列 关系 事件 有 < 苟 可 以 利 民 , 并 
列 , 不 循 其 礼 > 、< 商 君 相 秦 十 年 ,并 列 , 宗 室 贵 威 多 忽 
望 > 、< 夫 五 羧 大 夫 , 并 列 , 研 之 寺 人 >、< 缪 公 知 之 ， 
并 列 , 举 之 牛 口 之 下 > 、< 今 君 又 左 建 外 易 ,并列 , 非 所 
以 为 教 > , 顺 承 关系 事件 有 < APB REZ FS, JI 
承 , 求 见 孝公 > . < ŽARA TUBE, JR, BR ARAB YE > < 
ERNER, IMU, PEZES >, < 太子 不 可 施 
刑 SH ECD UK, BA RIS >, < 赵 良 见 商 君 ， 
顺 承 , 商 君 弗 从 > . < BAA, MOK, KFA >, <A 
子 虔 之 徒 告 商 君 欲 反 , 顺 承 ,发 吏 捕 商 君 > 。 为 了 便于 
理解 ,系统 给 出 了 历史 事件 的 译文 , 见 图 8。 

图 9 给 出 了 事理 图 谱 的 可 视 化 界面 。 该 图 所 示 的 
事理 图 谱 表 达 的 史实 是 : 商 蒜 听闻 秦 元 公 下 令 全 国 寻 
求 有 才 之 人 , 商 观 因此 托 景 监 求 见 孝公, 以 获得 赏识 ; 
M BRAK ER” ,引起 革新 与 守旧 两 派 之 间 的 斗争 ; 
“ 座 定 变法 之 令 ” ,开始 制定 新 法 的 内 容 ;“ 于 是 太子 犯 
法 ” , 刑 点 太子 师傅 ,以 此 树立 新 法 的 威严 ;“ 赵 良 见 商 
君 ” 指 出 , 商 软 身 为 国 相 不 为 民 造 福 而 自行 其 是 ,但 商 
睹 并 未 正视 赵 良 谏 言 。 商 著 在 秦 国 任 相 十 年 ， BAA 
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G 《史记 》 事理 图 谱 可 视 化 系统 wee maen UR 8 oou 
输入 要 识别 的 内 容 原文 事件 列表 
ETE, INES ROMPRES, RRL, REDS, DETA 事件 A 关系 事件 8 
奉 ， 因 孝公 完 臣 遇 监 以 求 见地 公 ， 
AUTRES GK RIFA 
DWE: BIZE, RETH. BAARAZN. MFR; 
ARNS, CRU, BAM, MALLEA. RTIG SIK 
m. CESARE. MADETWRA. BUZADTER, FERA: 苟 可 FORER az Ewe 
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姓 家 家 富裕 充足 ,但 秦 国 的 星 亲 国威 


直 因 太子 之 事 


忽 恨 商 著 ,因此 在 秦 孝 公 死 后 ,太子 继 位 , 商 著 被 处 以 


刑罚 。 通 过 上 述 事 理 图 谱 可 以 直观 地 看 出 :从 商 拷 通 


过 景 监 得 到 秦 孝 公 的 赏识 ,到 天 下 人 觉得 其 “名 不 配 


位 ”, 再 到 其 终 未 采纳 赵 良 谏 言 , 商 蒜 受 刑 并 非 偶 然 。 


6 总 结 


《史记 》 是 一 部 纪 传 体 巨 著 , 如 何 从 中 挖 气 出 一 些 重 


要 的 历史 事件 及 其 之 间 的 内 在 联系 ,对 


于 从 事 文献 学 、 


历史 学 和 社会 学 等 学 科 的 研究 具有 重要 意义 。 随 着 大 


数据 时 代 的 到 来 以 及 人 工 智能 技术 的 发 
型 层出不穷 ,特别 是 2018 年 底 出 现 的 B 
其 具有 强大 的 特 生 


展 ,深度 学 习 模 
ERT 模型 ,由 于 


征 提取 能 力 而 备 受 推 深 。 笔 者 在 《 史 


记 》 语 料 集 的 基础 上 ,融合 BERT 模型 和 LSTM-CRF 模 


型 ,对 历史 事件 及 其 组 成 元 素 抽取 以 及 事 


EE 理 图 谱 构 建 方 


法 进行 研究 。 实 验 结果 表明 ,利用 笔者 所 提 方 法 抽取 历 
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及 其 组 成 元 素 的 Fl1 值 分 别 达到 0. 823 和 0.760。 [7] 


研究 仍 存在 局 限 性 ,如 语 料 集 的 标注 采用 人 工 方 
SEO f 能 否 引入 智能 化 技术 进行 自 

注 值得 深入 研究 ;笔者 只 针对 单一 著作 展开 研究 ， 
能 鸟 发 现 的 重要 规律 和 有 价值 的 知识 相对 有 限 , 能 否 
融合 多 部 著作 进行 跨 文本 研究 有 待 于 进一步 探讨 。 
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© Abstract; | Purpose/significance | Historical Records is the first biographical history book in China, which con- 
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"tains almost all the significant historical events during more than 3000 years between the Yellow Emperor and the Em- 
peror Wu of Han. How to efficiently extract these historical events and their relationships is quite important to pene- 
trate the historical appearances, reveal the historical essences and discover the historical laws. | Method/process | 
The BERT model and LSTM-CRF model were introduced in this paper, and historical events extraction method based 
on Historical Records was proposed and the historical event graph was constructed. | Result/conclusion | The experi- 
ment results show that the F1 values of historical event and its components extraction are respectively 0.823 and 0. 
760. The rare known knowledge is invented by the event graph, which providing essential literature foundation for 
many researchers, such as philology, history and sociology, to conduct their researches. 
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